#物理 AI
輝達入股EDA霸主!
輝達宣佈與新思科技擴大戰略合作夥伴關係,並投資20億美元購買新思科技的普通股。周一(12月1日)美股盤前,輝達在官網宣佈與新思科技(Synopsys)擴大戰略合作夥伴關係,並投資20億美元購買了新思科技的普通股。受該消息影響,新思科技(股票程式碼:SNPS)股價盤前一度漲超11%至每股464美元。截至發稿,新思科技早盤的漲幅約為3.7%,報433.5美元。輝達在聲明中寫道,此次合作關係的擴展將整合輝達在人工智慧和加速計算方面的優勢,以及新思科技領先的工程解決方案,從而幫助研發團隊以更高的精度、更快的速度和更低的成本設計、模擬和驗證智能產品。新思科技是一家總部位於美國加州的電子設計自動化(EDA)公司,專注於矽晶設計與驗證等業務,是全球排名第一的晶片自動化設計解決方案提供商,全球排名第一的晶片介面IP供應商,目前其技術產品應用於智能汽車、物聯網、人工智慧、雲端運算和資訊安全等新興科技創新領域。新思科技的軟體有助於設計現代晶片中數十億個電晶體和連接器的複雜佈局,並在生產階段之前驗證硬體是否能按預期運行。這一過程對於製造人工智慧系統的核心晶片(例如輝達的產品)至關重要。根據輝達的說法,利用輝達CUDA-X庫和AI物理技術,新思科技將進一步加速和最佳化其廣泛的計算密集型應用組合,涵蓋晶片設計、物理驗證、分子模擬、電磁分析、光學模擬等領域。兩家公司將攜手合作,利用數字孿生技術,為半導體、機器人、航空航天、汽車、能源、工業、醫療保健等行業打造新一代虛擬設計、測試和驗證方案。新思科技的技術將與輝達智能體AI技術堆疊整合,從而為EDA以及模擬和分析工作流程實現自主設計能力;兩家公司計畫啟用雲訪問,使各種規模的工程團隊都能享受到加速工程解決方案的強大功能。輝達還將與新思科技制定聯合市場推廣計畫,覆蓋多個行業的工程團隊。此外,輝達還宣佈以每股414.79美元的價格,投資20億美元購買了新思科技的普通股。作為全球市值最高的公司,輝達在人工智慧熱潮中已投資多家企業,包括OpenAI、CoreWeave等。輝達甚至同意向潛在競爭對手英特爾投資50億美元,作為聯合開發個人電腦和資料中心晶片合作的一部分。行業研究分析師Niraj Patel表示,新思科技的技術被包括Google、特斯拉在內的眾多半導體和系統公司改採用。他指出,合作將使新思科技能夠為其面向汽車、航空航天、工業和能源領域的設計和模擬工具使用更先進的晶片。 (科創板日報)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)
兩個世界首富吵起來了!貝索斯融資 447 億復出搞 AI,馬斯克:跟屁蟲
本該是前世界首富傑夫·貝索斯的高光時刻,結果被一隻貓咪表情包攪了局。今天凌晨,當貝索斯要親自下場做 AI 公司的消息剛在網上發酵,馬斯克就火速轉發推文,並附帶一句話:哈哈,不可能。Copy cat(跟屁蟲)如果你關注科技圈,這劇情大概見怪不怪了。從衛星到火箭,這兩位科技圈的頂流已經互懟了整整二十年。只是,如今吵架的戰場,變成了眼下最火的物理 AI。62 億美元,貝索斯開啟史上最壕創業2021 年貝索斯把亞馬遜 CEO 的位置讓給了安迪·賈西,本以為他要專心當富豪享受人生。結果四年後,這位電商之王突然宣佈:我要重返一線,這次他瞄準的新項目,叫普羅米修斯計畫(Project Prometheus)。據紐約時報的報導,這個計畫一出場就拿了 62 億美元(折合人民幣 447 億元)的融資啟動資金,其中相當一部分是貝索斯自己掏的腰包。憑藉這筆巨款,普羅米修斯在矽谷展開了「人才大搶購」,已經挖來了近 100 名頂級研究員,這些人之前都在 OpenAI、Google DeepMind 和 Meta 工作。那讓貝索斯選擇二次創業的普羅米修斯到底要做什麼?簡單說,就是讓 AI 從虛擬世界走進現實世界。現在市面上的 AI 主要都是通過學習網上的文字、圖片來生成內容。它們很會寫文章、畫畫、聊天,但有個致命問題,它們不懂物理世界。舉個例子:你問 ChatGPT「怎麼設計一個更輕的飛機機翼」,它可能給你講一堆理論,但它自己從來沒摸過真實的機翼,不知道不同材料在風洞裡的表現。貝索斯要做的,就是讓 AI 真正動手做實驗。據悉,普羅米修斯預計探索一個類似超大型自動化實驗室的項目。在這個實驗室裡,機器人會 24 小時不間斷地進行物理、化學和工程測試。AI 會像科學家一樣,自己提出假設、設計實驗、觀察結果、得出結論,然後不斷迭代最佳化。目標領域非常明確:航空航天、汽車工程、電腦硬體製造。比如在航空領域,AI 可以自己跑成千上萬次風洞模擬,找出最優的機翼形狀;在汽車製造中,AI 可以規劃整條產線的機器人如何協作。此外,貝索斯選的搭檔也很有意思:維克·巴賈傑(Vik Bajaj)。他是個跨界科學家,有著物理和化學的學術背景,曾是神秘實驗室 Google X 的核心成員,參與過無人機送貨項目 Wing 和自動駕駛項目 Waymo 的早期開發。後來還創立了 Alphabet 旗下的生命科學公司 Verily。選這樣一個人當聯合 CEO,至少在技術層面也有一個把握航向的舵手。馬斯克為什麼說貝索斯「抄襲」?馬斯克這次發「Copycat」不是沒有原因的。最近幾年,馬斯克一直在強調:特斯拉已經變成了一家 AI 和機器人公司。現在貝索斯也要搞物理 AI,也投資了一堆機器人公司,在他看來,貝索斯進軍物理 AI 和機器人領域,更像是在抄特斯拉的作業。而兩者的恩怨,也由來已久。2019 年,亞馬遜宣佈要做 Project Kuiper 衛星項目,馬斯克當場開罵「Copycat」,因為 SpaceX 的 Starlink 早在 2015 年就開始規劃了。同年貝索斯發佈「藍月」月球著陸器,馬斯克又惡搞 P 圖把「Blue Moon」改成「Blue Balls」。2020 年,亞馬遜花 12 億美元收購自動駕駛公司 Zoox,馬斯克又發推:「@JeffBezos 是個跟屁蟲」。往前追溯,兩人的梁子結得更早。2004 年兩人首次見面時,就不歡而散。2013 年為了 NASA 的 39A 發射台打得不可開交。2014 年打專利官司,2021 年又因為登月合同鬧上法庭。不過話說回來,雖然兩人互懟了二十年,但在技術成就面前,馬斯克還是展現了一定的風度。當地時間 11 月 13 日,貝索斯旗下藍色起源的新格倫號重型火箭成功發射,並完美回收了第一級助推器。後續馬斯克在 X 上送上了祝福。而無論是貝索斯的普羅米修斯, 還是馬斯克的特斯拉和 Optimus, 他們都在做同一件事:讓 AI 真正理解物理世界, 能夠走出螢幕。所以,拋開「抄襲」的口水戰,更值得關注的是:當兩個頂級玩家同時押注物理 AI 時,這個賽道的爆發可能比我們想像的更快。 (APPSO)
AI的世界
上次說到,AI大神楊立昆一心想打造一個能理解物理世界的AI模型,那就是世界模型,在這一點上,他和AI教母李飛飛的方向是一致的。作為史丹佛大學電腦科學系的首席教授,和史丹佛“以人為本AI研究院”的聯席院長,李飛飛在史丹佛官網上的資料顯示,她正處於休假狀態。就是在李飛飛休假期間,她創辦了自己的新公司,名叫World Labs,這是李飛飛非常想做的事情,也是她認定的、AI該有的未來。那就是世界模型。具體而言,那是一個理解現實物理世界,擁有空間智能,會推理3D空間的智能AI系統。在最新一篇一萬多字的論文中,李飛飛指出,現在的AI其實是處於黑箱狀態,AI的世界不是立體的、3D的,只是平面的一連串字元。即使現在的AI再博學,無所不通,它仍然只是大語言模型,LLM,Large Language Model,只會說,沒有空間智能。現在AI,其核心能力是理解和生成人類語言,那是通過演算法,算力和資料,這三個要素訓練而成。而所謂的資料並非現實世界原來的樣子。如同當年李飛飛創辦ImageNET資料庫,教會AI識別圖片一樣,所有給AI投喂的資料,都經過人類的標註,使用AI能識別的字元。資料是平面的,一切如你所知,AI不知道,酒杯碎了,紅酒會灑在地面上。AI不知道,貓咪為什麼能躲在櫃子後方,不被看到。而且AI的空間是錯亂的,不連貫的。李飛飛的首要目標,就是讓AI學會自己建構一個空間,一個遵循物理規律的3D世界。一旦AI的這個虛擬世界,成長的現實世界無二,空間智能成熟,立體化的AI也將真正走進人類世界,成為真正的人類助手。那這就會是AI的未來。李飛飛說,如同北極星的指引,這一場探索,我們一起去追尋。 (後知說)
貝索斯親自下場物理AI!
最新消息顯示,近年來以狂練肌肉和“夕陽紅”戀情引發關注的前世界首富傑夫·貝索斯,正在親身入局AI創業浪潮。據多位知情人士透露,貝索斯正參與創立一家名為“普魯米修斯項目”(Project Prometheus)的AI初創公司,並將擔任聯席CEO。得益於老闆是當今全球第三富豪,該創業公司種子輪就獲得62億美元(約合人民幣440億元)融資,堪稱資金最充沛的初創公司之一。這也是貝索斯2021年7月卸任亞馬遜CEO後首次擔任營運職務。儘管他也深度參與火箭發射公司藍色起源的營運,但官方頭銜只是創始人。據悉,普魯米修斯項目將與貝索斯“把人類送往外太空”的興趣相契合。創業公司將聚焦電腦、航空航天、汽車等領域助力工程與製造的人工智慧。貝索斯的聯席CEO是物理學家和化學家維克·巴賈傑(Vik Bajaj)。他曾在GoogleX部門與Google聯合創始人謝爾蓋·布林緊密合作,該部門主要孵化一系列雄心勃勃的初創業務,包括後來成為Waymo的自動駕駛汽車。巴賈傑的職場社交帳號也顯示,離開Google後他參與過多次創業,並從本月開始成為普魯米修斯項目的聯創和聯席CEO。普魯米修斯項目也延續了今年AI創業的熱門方向——將AI應用於物理任務。許多曾效力GoogleDeepMind、OpenAI和Meta等大公司的研究專家紛紛“自立門戶”,探索機器人、藥物設計,以及數學和理論物理領域取得重大突破。貝索斯也在去年投資過一家名為Physical Intelligence的初創公司,主攻將人工智慧應用於機器人領域。多位知情人士表示,普羅米修斯項目已僱傭近百名研究人員,其中不少是從OpenAI等大機構挖來的。與聊天機器人相比,這些公司的主營業務有著相近但顯著的區別:大語言模型通過分析海量的文字來獲取技能,包括模仿人類的語言系統、編寫電腦程序等。這些新公司正在幫助AI從物理世界中學習技能。今年夏天,一群從Meta等大機構離職的研究人員創辦名為Periodic Labs的公司,致力於建構能加速物理與化學等領域研究的人工智慧技術。這家獲得3億美元融資的公司計畫在北加州建立一處大型實驗設施,安排機器人進行“大規模科學試驗”。理論上,通過分析試驗過程中的對錯,AI將能學習如何“獨立完成試驗”。據知情人士透露,普羅米修斯項目也將展開類似的工作。 (財聯社AI daily)
從第二代VLA到全新一代人形機器人,小鵬的AI井噴時代
今天下午,何小鵬在小鵬汽車新總部,開了一場汽車味不濃的發佈會。這場發佈會其實四個字就能總結:物理 AI。發佈會上一切激動人心的成果,都基於物理 AI 展開:第二代 VLA 端到端輔助駕駛、小路 NGP、無需導航漫遊的 Super LCC、第二代人形機器人 IRON、前裝量產 Robotaxi...等等。三天前,何小鵬就在微博預熱:「當技術的要素積累到某個臨界點,過去那些孤立的技術難題,突然之間,貫通了。」屬於小鵬汽車的臨界點,正是將物理世界與矽基晶片,以大模型為媒介徹底貫通,然後一瞬天地寬。小鵬是國內極早開啟鑽研 AI 的汽車公司,早在車端算力僅有 30TOPS 的時代,何小鵬已經篤定,輔助駕駛會是人類進入 AI 終局的核心路徑。如今智能汽車的終端算力早已突破四位數,小鵬更坐擁目前量產車型第一梯隊的自研終端算力。於是從下午的發佈會開始,小鵬汽車正式將過去超過十年的技術積累和研發,投影到人類世界中不同場景。而在物理世界大模型的幫助下,今天發佈會的高光堪稱「井噴」——這也符合發佈會的主題:湧現。在汽車業務屢創交付新高的當下,小鵬汽車能否憑藉這樣的湧現和井噴,乘勢向下一個科技時代轉型?回顧完下午的發佈會,我們就能讀懂何小鵬的 AI 宇宙。物理 AI 打開新世界回到小鵬「湧現」的原點:什麼是「物理 AI」?這是一個沒有嚴格學術定義的概念,但幾個約定俗成的必要條件主要包括:多模態輸入處理(包括但不限於圖像、視訊、雷達、溫度、氣壓、IMU);時間建模與預測能力(通過學習歷史狀態預測未來狀態,比如車輛運動軌跡);自我監督學習(模型本身通過預測、對比、重建來訓練,無需大量人工標註);具身智能支援(適配包括機器人、自動駕駛等所有具身繫統)。或者可以這樣說:物理世界 AI 大模型的終局,就是不需要定語的「真·具身智能」,AI 思維與現實世界交融,0 和 1 構成的大腦,將會擁有人類同等的真實世界互動能力。也正因如此,如今業界已經普遍認同,掌握基於物理 AI 的基座大模型,就擁有了在下一個科技時代競逐的鑰匙。今天是何小鵬展示鑰匙的時刻,推開大門,高光湧現,技術井噴。在他看來,物理 AI 意味著數字世界和物理世界開始融合,新的趨勢下,將會誕生「擁有理解、互動和改變世界能力的機器」。聚焦到今天下午的小鵬全球新總部,何小鵬拿出了四款全新產品,它們都將小鵬的「物理世界模型」照進現實,也都代表著未來不止十年內,人類出行生態的大變局。第二代 VLA,全球更好開其中普通讀者,特別是螢幕前小鵬車主、准車主們感知最強的躍遷,也正是何小鵬第一個發佈,且即將量產的物理 AI 產品。基於物理世界大模型,小鵬汽車第二代 VLA 大模型今天正式發佈。和第一代相比的核心進化,在於「V-L-A」中的「L,language,語言」被徹底打通,或者說極大程度上被「拆掉」了。VLA 路線本身,依然脫胎自人類對「模型可解釋性」的需求,也就有了從 Vision 視覺到 Language 語言,再從語言到動作的兩層轉譯。但兩次轉譯,意味著車子從看到世界的那一刻,再到作出反應的那一下之間存在延時,兩層轉譯更帶來了資訊的耗損。何小鵬問了一個業界求索已久的問題:「能不能把 Language 語言拆掉」?然後他馬上給出了小鵬的答案:即將在 12 月底先鋒推送的小鵬汽車「創新 VLA」。「拆掉語言」,意味著不需要對場景做「描述」(包括人工標註和自動標註),而是讓模型直接理解真實世界,就像我們開車是「看路」,而不是旁邊坐著個人給你「讀路」。但這也同時意味著,小鵬需要從「大語言模型」向「物理世界模型」邁出艱難而關鍵的一步。何小鵬透露,直到今年二季度,自動駕駛團隊才迎來了第二代創新 VLA「巨大的跳躍」,隨即小鵬團隊才決定加大下一代 VLA 開發,並且停止第一代 VLA 開發。但就是半步的時間差,讓他認為小鵬的第二代 VLA,已經提前開始了「物理世界模型」的新範式。他也坦承今年小鵬的輔助駕駛更新其實偏向穩妥,因為從接下來的創新 VLA 開始,「一個全新的大門在打開,它很有可能成為以後自動駕駛行業更通用的方案」。何小鵬的自信,來源於創新 VLA 從原理上開始的高效率。節約中間轉譯過程後,輔助駕駛系統的時延更低、反應速度更高,模型影格率(類似於每秒響應的次數)更高,隨即而來的是安全上限也被拉高了。而從物理世界模型開始,何小鵬開始摸索新的 AI 方法論:「AI 燃料」。他表示,如果將物理世界模型比作 AI 時代的「引擎」,那麼資料就是這台數字引擎的「燃料」。和電力作為 AI 晶片的燃料一起,兩套動力共同驅動著小鵬的 AI 新階段。譬如,在創新 VLA 上,小鵬「燃燒」了接近 1 億的視訊 clips(片段),這也是目前車企官宣配合量產模型的第一個 9 位數輔助駕駛訓練片段,相當於 6.5 萬年的實際駕駛極限場景總和。而在車端運行創新 VLA 的實體「引擎」,則是三顆小鵬自研圖靈晶片,合計峰值算力達到了 2250TOPS。第二代 VLA 從車端推理到雲端訓練,都有著類似的「數字火力壓制」理念。3 萬張卡規模的阿里云云端算力叢集+720 億參數基座大模型,確保了小鵬可以以五天全鏈路迭代一次的速度,迎戰愈發激烈的輔助駕駛競賽。脫胎自基座大模型,第二代 VLA 在何小鵬看來,是屬於智能汽車的物理 AI「小腦」,擁有更強運動能力的作業系統。而越過真實世界資訊轉譯的奇點之後,小鵬的 VLA 模型迎來了能力湧現。譬如,第二代 VLA 將帶著「小路 NGP」全新模式上線,不僅從更細維度貫通高速-城市-小路/園區,更全面適應歐洲市場的路況。此外,滿足全球法律法規,真正「全球都能開」的「無導航自動輔助駕駛」Super LCC+人機共駕、讀秒時自動蠕動的「理解紅綠燈」、識別手勢「招手即停」等等...都是第二代 VLA 瞬間為小鵬打開的無窮想像力。這種湧現極其擬人,因為我們不會為一名駕校出來的人類司機安上「高速 NOA」、「城市 NOA」一個個單獨的技能包,人類司機天生就會觀察並總結經驗。「當你把模型、算力、資料,做到一個完全不一樣的情況之後,你就開始了湧現,因為解決一個問題之後,你發現同時解決了很多你(以前)完全沒有辦法解決的問題。」另一個好消息是,讓何小鵬一瞬天地寬的第二代 VLA,同樣會惠及全行業。小鵬不僅將第二代 VLA 正式開源,更將與大眾進一步合作,推動第二代小鵬 VLA 和圖靈晶片,在大眾品牌車型上落地。小鵬 Robotaxi,2026 見下一款即將落地的小鵬物理 AI 產品,是小鵬 Robotaxi。點亮物理 AI 技能樹之後,何小鵬上來就搞了個大新聞:2026 年,小鵬將發佈 3 款 Robotaxi 產品。這三款產品的具體命名和定位未知,不過可以確定的是,它們都將基於第二代 VLA 大模型,以及圖靈晶片提供 L4 級服務。其中小鵬 Robotaxi 標配了四顆圖靈晶片,合計高達 3000TOPS 的車端算力,其中一顆圖靈作為安全備份——事實上從算力、轉向、感知,再到能源、剎車、通訊,小鵬做了全安全的冗餘。基於二代 VLA+VLM 能力,小鵬的 Robotaxi 還具有更強的車外互動能力,不僅自己理解路人,路人也能理解 Robotaxi 本身。更有意思的點在於,三台 Robotaxi,既有面向商業營運的 B 端車,同時也有讓個人使用者「獨享 L4 級體驗」的 C 端車。而 Robotaxi 本身,也將成為小鵬汽車智能駕駛產品版型的最高級存在——單圖靈/雙 Orin 的 Max、三圖靈的 Ultra,以及四圖靈+全冗餘的「Robo」。何小鵬這樣解釋小鵬的 Robotaxi 商業模型:「我認為相當長時間內,很多人不會選擇純共享 L4 模式,還是會選擇自己買一台有 L4 軟硬體體驗的車,但是可以在我的家庭內共享,我們叫私享模式。」這樣從 L2 主機廠向 L4 Robotaxi 營運者進軍的路線,何小鵬認為從成本和泛化性來看都有優勢。譬如營運範圍更大、前裝成本更低等等。「我認為 Robotaxi 要想真正做到大規模商業化,並且從中國走向全球,必須要由整車廠親自投入」,何小鵬表示作為軟硬體一體開發製造的整車廠,小鵬天生適合 Robotaxi。伴隨著 Robotaxi 體系全面上線,小鵬汽車的無人駕駛出行試營運服務,也將從 2026 年開始推出,從廣州逐漸覆蓋到全國,甚至全球。AI 宇宙,機器人閉環無人出行,類人服務,這八個字可以簡單總結 AI 對人類生活的重塑。後面四個字,對應的是機器人。今天的第七屆科技日,正好也是小鵬機器人路線更新至第七世代。何小鵬也帶來了迄今為止,小鵬團隊最擬人的機器人作品:全新 IRON。新一代 IRON 標誌著小鵬徹底堅定了人形機器人的路徑,AI 時代的資料思維從中起到了明顯作用,何小鵬解釋稱「如果不擬人,你沒有辦法從人身上獲取有價值的資料訓練」。創業,往往就是這樣的選擇遊戲。小鵬並非唯一一家進入機器人行業的車企,但在何小鵬看來,沒有軟硬體、大模型、資料驅動等等能力的車企最終會發現,和傳統汽車行業軟體依賴供應商不同,「機器人軟體供應商就是機器人廠商本身」。而選擇擬人路線,才會倒推小鵬收集真正人類生活空間的資料,並且進一步發揮自己資料閉環能力的優勢。回到新 IRON 身上,它凝聚了小鵬一系列「擬人」成果,甚至具備了「骨骼-肌肉-皮膚」的人類基本「構型」。譬如號稱「行業尺寸最小」的骨骼尺寸、實現肌肉效果的晶格材料包覆、支援觸覺感測的無縫工藝材料、超大面積的 3D 曲面頭部螢幕,等等。最終走上舞台的新一代 IRON,收穫了可能是今天下午最不可思議的掌聲——因為除了形象擬人,IRON 的體態、步姿,相比前代有了極其顯著的進步。人類本身,就是自然科學的極限所在。何小鵬和團隊深知這一點,所以全新 IRON 身上傾注了大量資源,貼近人類的分毫細節。譬如 仿人脊椎、1:1仿人手結構,再到極其接近人類手臂靈活性、尺寸的 22 自由度機械手(人類 27 個)、可以聳肩、夾胸,借鑑汽車底盤的「反向仿生」全新肩背結構...等等。而回到「具身智能」這一品類本身,IRON 同樣參數可觀。三顆圖靈晶片 2250TOPS 算力驅動下,小鵬首次在機器人上推出了「VLT 大模型」的概念。T 代表 Task 任務,以及 Thinking 思考,對應著機器人的深度思考,甚至是自主決策能力。當然也不用過分擔心「智械危機」,程式設計師出身的何小鵬,今天還擴展了傳承八十多年的「機器人三大法則」。他加入的第四條,叫做「機器人不得洩露人類隱私資料,除非該命令與第一法則衝突。」除了軟體安全,IRON 的硬體安全同樣是重點。IRON 是首個發佈的、使用全固態電池驅動的機器人,何小鵬表示「人形機器人最有可能是推動全固態電池量產的產品」,原因很簡單——人形機器人是私密空間產品,一旦發生安全問題,遠比汽車危險。聊到量產,IRON 目前已經進入最緊張的量產準備階段,何小鵬給的時間表是「明年一季度末,軟硬體量產就將進入合圍階段」。他進一步預測,最快後年開始,以 IRON 為代表的人形機器人,就將帶來社會工作崗位的變化,譬如機器人訓練、指導等等。不過何小鵬認為, IRON 這樣的人形機器人,反而不適合輿論普遍期待的「打螺絲」,而是會優先進入導購、導覽、導巡方向。而如果明年年底,IRON 可以如期實現大規模量產,他表示這將讓小鵬徹底迎來「巨大的升維」。湧現與實現今天的何小鵬在台上越說越興奮,技術躍遷讓這位在新造車賽道上奔跑十年的創業者欣喜若狂。以至於,100 分鐘的發佈會本身資訊密度很高,還有太多亮點沒有說完。譬如匯天也帶來了全新的、搭載物理 AI 和第二代 VLA 技術的 6 人乘坐全傾轉固定翼飛行汽車「A868」,已經進入試飛階段;陸地航母也官宣將在 2026 年規模化量產交付,等等。當然,這樣高密度、廣維度,但依然需要時間等待量產的前瞻性發佈會,一定會遭遇這樣的問題:「為什麼現在就要發」?其實這個問題縈繞何小鵬,也伴隨著過去十年的新造車。2019 年,何小鵬說「智能汽車的核心在營運,營運的核心則在於軟體」;如今沒有任何一家車企可以在發佈會上忽視「軟硬一體」。2023 年科技日,何小鵬說車企以後每年要投入數億甚至數十億成本,培養更大的算力;如今每一家車企都被問「你們有多少卡」?21 世紀的第三個十年註定屬於 AI 和無人出行,何小鵬相信趨勢,而實現趨勢需要找到爆發點。今天小鵬科技日的主題是湧現,背後的趨勢是物理 AI,爆發點,則在於小鵬拿出來的一系列 AI 產品。這樣的湧現,能否讓小鵬實現下一回合的領先?我們會在接下來的量產中找到答案。 (電動星球)
【GTC】量子計算、機器人……黃仁勳勾勒AI宏偉藍圖
台北時間周三凌晨,全球市值最高上市公司輝達在美國首都舉辦GTC大會,公司CEO黃仁勳登台暢談AI產業的前沿展望。與以往有明確重點的發佈會不同,黃仁勳今天的演講涉獵甚廣,全球資本市場熱炒的6G、量子計算、物理AI和機器人、核聚變、自動駕駛全都有份。面對輝達直到2028年的技術路線圖和下一代Vera Rubin架構產品實機亮相,疊加黃仁勳炫耀“到2026財年的Blackwell、Rubin晶片訂單已經積攢5000億美元”。“全球股王”輝達收漲4.98%報201.03美元,公司總市值接近4.9兆美元。輝達的暴漲還帶動了部分晶片股走高,英特爾漲5.03%,博通漲3.02%。諾基亞漲22.84%,輝達官宣將向諾基亞投資10億美元,加速AI-RAN創新並引領從5G到6G的轉型。作為今天官宣的第一個合作協議,黃仁勳宣佈與諾基亞達成合作協議,除了10億美元股權投資外,兩家公司還將合作推出面向6G的電信計算平台NVIDIA ARC(Aerial RAN Computer),捕捉AI-RAN市場的機遇。NVIDIA Arc是運行在CUDA-X之上的無線通訊系統。輝達介紹稱,目前“AI流量”正處於爆發性增長的狀態,例如ChatGPT每周8億活躍使用者中,幾乎有50%的人通過移動裝置訪問該AI。借助AI-RAN系統,移動營運商可以提升性能和效率,增強AI應用的網路體驗,並用同樣的設施提供6G服務,為無人機、汽車、機器人以及AI眼鏡提供網路連線。在會後的新聞稿中,輝達也宣佈與T-Mobile、思科等合作夥伴打造美國首個面向6G的AI原生無線堆疊,並推出推進下一代無線技術的新應用。輝達同時展示了基於CUDA‑Q核心建構的NVQLink,用於連接傳統GPU和量子電腦,共同加速量子計算。目前的量子計算對環境噪聲高度敏感,且可用性有限。因此需要基於GPU的超級電腦承擔起量子處理器的部分負載,支援量子糾錯所需的控制演算法。黃仁勳隨後宣佈與美國能源部達成協議,將再建設7台超級電腦。這些超算將使用Blackwell和下一代Vera Rubin架構晶片,分別配置在阿貢國家實驗室和洛斯阿拉莫斯國家實驗室。其中名為Solstice的系統將配備10萬塊Blackwell GPU,將成為“美國能源部用於科學發現的最大AI超級電腦”。作為演講的保留節目,黃仁勳又展示了他的“晶片盾牌”——今天的盾牌由NVLink連接的72個GPU構成。黃仁勳特別強調,通過在更多GPU之間更好地分配推理任務,GB200 NVL72 AI超級電腦的性能提高了10倍,同時運行成本也降低了10倍——AI正變得對所有人更加可及。輝達也披露了新款BlueField-4資料處理晶片,可加速千億量級的AI基礎設施,支援800Gb/s吞吐量,並實現高性能推理處理。作為刺激股價表現的環節,黃仁勳在現場宣佈,截至2026財年末,公司帳上已經堆了超過5000億美元訂單。他也在現場展示了輝達截至2028年的GPU路線圖,和下一代Vera Rubin架構晶片的樣機。這款產品可能要到明年此時或更晚一些才能量產發貨。順便一提,現場也展示了輝達的液冷AI伺服器機架。黃仁勳比劃稱,1吉瓦資料中心需要8000個這樣的機架。單個機架重達2噸,由150萬個零部件構成。在備受投資者關注的“物理AI”方面,黃仁勳的演講主要放在Omniverse數字孿生技術上,包括利用該技術建構現代工廠,以及訓練和打造機器人。其中機器人初創公司Figure宣佈與輝達開展合作,加速下一代人形機器人研發。Figure正在使用輝達加速計算建構其Helix視覺-語言-動作模型,並採用Isaac平台進行模擬和訓練。輝達也推出了新一代工業級邊緣AI平台IGX Thor,旨在將即時物理人工智慧帶到邊緣端。與上一代產品IGX Orin相比,IGX Thor在整合GPU形態下能提供8倍AI算力,獨立GPU也能提供2.5倍算力,並提供翻倍的連接性,從而在邊緣側無縫運行大型語言模型和視覺語言模型。順便一提,核聚變反應堆也能用數字孿生來模擬。輝達透露,公司與General Atomics以及一系列國際合作夥伴打造了一個具有互動性能的高保真、AI驅動的數字孿生聚變反應堆。這個模型能夠以秒級速度預測電漿體行為。作為演講的壓軸環節,黃仁勳宣佈推出NVIDIA DRIVE AGX Hyperion 10,這是一套參考級量產計算平台與感測器架構。輝達宣稱,這套系統是面向“L4級自動駕駛”的通用平台,包括14個高畫質攝影機、9個雷達、1個雷射雷達和12個超聲感測器,以及兩台基於Blackwell架構的車載DRIVE AGX Thor平台。輝達也宣佈與Uber達成合作,使用該計算平台的車輛將可選接入Uber平台。 (財聯社)
永別了,人類冠軍!AI橫掃天文奧賽,GPT-5得分遠超金牌選手2.7倍
【新智元導讀】國際奧賽又一塊金牌,被AI奪下了!在國際天文與天體物理奧賽(IOAA)中,GPT-5和Gemini 2.5 Pro完勝人類選手,在理論和資料分析測試中,拿下了最高分。IMO、IOI之後,AI再奪奧賽冠軍。剛剛,在國際天文與天體物理奧林匹克競賽測試中,GPT-5和Gemini 2.5 Pro達到金牌水平!在理論考試上,Gemini 2.5 Pro總體得分85.6%,GPT-5總體得分84.2%;在資料分析考試中:GPT-5總體得分88.5%,Gemini 2.5 Pro總體得分75.7%。在IOAA 2025上,AI的表現驚人,其水平竟高達人類金牌得主的2.7倍!我們正在見證AI大爆炸——今日之奧賽,明日之科學,AI將推動全部學科的進展。AI再奪IOAA金牌,見證歷史!國際天文與天體物理奧林匹克競賽(International Olympiad on Astronomy and Astrophysics,IOAA),由國際天文學聯合會主辦的全球性青少年天文賽事,是國際科學奧林匹克競賽之一、全球天文科學領域最具有影響力的賽事之一。競賽包含理論測試、實測資料分析、天文觀測三大核心環節,並設定團隊協作項目以增強國際互動。這些競賽試題極為嚴苛,通常只有全球最頂尖的學生才能解答。它們需要深厚的概念理解能力、冗長的公式推導,以及需耗時數小時才能完成的天體物理學難題。如今人工智慧不僅能夠通過考試,更在全球200至300名人類參賽者中躋身前兩名。GPT-5平均得分85.6%,Gemini 2.5 Pro獲得84.2%——兩者均達到金牌標準。我們已正式進入AI能與物理學和天文學領域最聰穎的年輕頭腦抗衡的時代。這並非瑣碎知識的比拚,而是關於中子星、吸積流、磁場和軌道力學的尖端推理。人工智慧不再只是生成文字,它開始思考宇宙的奧秘。但報告指出,在空間和時間推理方面,目前所有LLM都存在困難。因此,ASI之路還很長,仍需上下求索。五大LLM打擂台,幾乎全線摘金最新研究由俄亥俄州立大學團隊完成,重點考察了五大頂尖LLM,在天文和物理學方面的實力。論文地址:https://arxiv.org/pdf/2510.05016為此,他們選取了最近四屆IOAA理論考試(2022-2025)。之所以選擇IOAA來衡量,原因有三:現有的基準,如AstroMLab、AstroBench等僅通過選擇、簡答和判斷題來考察LLM的天文學知識;IOAA題目具備全面性,涵蓋了宇宙學、球面三角學、恆星天體物理學、天體力學、光度學和儀器學等廣泛的主題;IOAA將理論物理、觀測約束和真實天文資料與數學計算融為一體,為評估LLM的科學問題解決能力提供了一個獨特的視角除了以上提到的Gemini 2.5 Pro和GPT-5,團隊還讓o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同參戰。它們均是在AstroBench表現最強模型之一,而且還具備了多模態能力。所有模型的輸出,由兩名IOAA專家遵循官方評分細則進行獨立評分。實驗結果:理論考試在理論考試中,GPT-5和Gemini 2.5 Pro表現最佳,比分高出其他模型約7到25個百分點。具體來說(見下表2),GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)取得最高分,而Gemini 2.5 Pro在2024年以83.0%奪冠。在以幾何題為主的2024年試卷上,Gemini 2.5 Pro憑藉更強的幾何問題解決能力,取得了最佳總體成績(85.6%);GPT-5在該年未能獲得高分。儘管總體表現強勁,GPT-5在難題上的表現優於簡單與中等難度題。對此,研究人員分析出三點可能的原因。第一,各難度等級的問題數量較少,容易產生表現波動:簡單題僅10道,中等題11道,分別約佔總分185分和151分(總分為所有類別的1200分)。因此,少數錯誤就能顯著影響模型在該難度段的得分。第二,GPT-5在2024年試卷上出現了若干重大失誤,這些失誤多來自涉及幾何與空間可視化的題目。第三,GPT-5有時在天體物理學題上出錯。例如,2024年試卷的第9題(被歸為簡單題)中,GPT-5因概念性錯誤與計算錯誤共損失18分——這一題的錯誤幾乎佔簡單題可得分數的10%。基於這些原因,研究人員認為,GPT-5在簡單題和中等難度題上表現不佳,並非由於明顯的不當行為;更大的資料集,可能會減少偶爾錯誤的影響,並在難度類別之間實現更平衡的分佈。其他模型也具有競爭力:OpenAI o3總體得分77.5%,比Claude系列高出約13–17個百分點;其中Claude Opus 4.1得分64.7%,Claude Sonnet 4得分60.6%。此外,這些模型的表現會隨著題目難度的增加而下降。儘管三者在某些簡單基準(如帶多項選擇題的AstroMLab)上的表現相近並且積極,這次評估仍揭示了顯著的性能差距。這提示需要更全面地評估天文學領域的LLM,以測試其在問題解決能力上超越單純知識回憶的能力。實驗結果:資料分析考試相比之下,資料分析考試更能揭示模型在細節與多模態任務上的能力與侷限(見表1)。GPT-5在資料分析部分表現出色,總體得分88.5%,高於其理論考試成績(84.2%)。這一提升與其他模型形成鮮明對比:其他模型從理論到資料分析通常下降約10–15個百分點。造成這種差異的原因在於:資料分析考試,高度依賴圖表解讀與資料可視化;GPT-5更強的多模態能力解釋了其優勢。為進一步推動天體物理領域中大語言模型的發展,研究人員呼籲開發更具生態效度的多模態天文資料分析基準,作為對模型更全面評估的補充。媲美頂尖人類選手AI實力卻是很強,那麼它們是否可與人類一較高下?為此,研究人員根據IOAA的評分標準,將模型得分與人類參賽者進行比較。IOAA獎牌的評定基於參賽者總分(理論+資料分析+觀測考試之和),相對於中位數的表現——銅牌為中位數的100%–130%,銀牌為130%–160%,金牌則為160%以上。註:本次評估不包含觀測考試,作者分別為理論考試和資料分析考試計算了相應的獎牌門檻。在理論考試中,幾乎所有LLM表現堪稱「學霸等級」,得分輕鬆跨過金牌線!唯一例外的是Claude Sonnet 4,在2023 IOAA中拿下了銀牌。總體來看,這些模型不僅達到了金牌水平,甚至與全球TOP 200-300頂尖人類參賽者中,名列前茅。在2022、2024和2025年的考試中,各模型均穩定排名前12。更令人震撼的是,在2022、2023、2025理論考試中,GPT-5均超過了當年的IOAA最佳學生,堪稱「學神」!Gemini 2.5 Pro在2022和2023年,同樣力壓最佳人類選手。OpenAI o3在2023年考試中,亦超過了最佳學生。Claude Opus 4.1與Claude Sonnet 4在2023年雖未能與頂尖學生相媲美,但它們的得分仍明顯高於中位數,分別位列第45和第62。LLM偶有失敗,仍需上下求索為了更深入地瞭解LLM在天文問題解決中的長處和短處,根據IOAA理論考試中不同類型的問題,研究人員對LLM的表現進行了分析。根據評分團隊專家的評估,這次研究將理論問題分為兩類:• 第一類(幾何/空間):涉及空間可視化的問題,包括天球、球面三角學、時間計量系統和向量幾何。• 第二類(物理/數學):主要涉及宇宙學和天體物理計算以及天體力學,不要求幾何可視化。儘管這個分類(上表4)並不全面,但它清楚地揭示了系統性差異:模型在第二類物理問題上的得分較高(67–91%),而在第一類幾何問題上的得分明顯較低(49–78%),兩者相差15–26個百分點。這種差異在2024年的考試中尤為顯著,當時第一類問題佔據了主導地位——只有Gemini 2.5 Pro保持了相對較高的性能(74.7%),而其他模型的性能則下降到了35–59%。按年份、難度和類別劃分的IOAA理論問題分析即便如此,Gemini在第一類問題上的性能也比第二類問題(91.3%)低12.7個百分點。為什麼LLM在幾何問題上表現不佳?通過定性分析,研究人員發現除了計算錯誤外,LLM還面臨一些根本性的問題。首先,模型在概念上難以理解球面三角學。例如,GPT-5會寫出違反基本幾何原理的球面三角學方程,並嘗試進行與大圓幾何不一致的角度計算。此外,所有模型在時間計量系統上都表現出混淆,無法正確區分熱帶年和恆星年。一些解答甚至隱含地將日歷年和熱帶年視為相同。最後,目前的LLM只能用自然語言進行推理,無法在思考時進行空間表示的視覺化或草圖繪製,這與人類參與者相比處於天然劣勢。這些失敗模式表明,多模態推理,特別是空間和時間的,是提升LLM在天文問題解決能力的重要未來方向。除了定性分析外,研究人員還將所有錯誤定量地分為八個類別,以系統地識別大語言模型的弱點。圖1:所有模型在IOAA理論考試(2022-2025年,其中2023年得分標準化為300分)和資料分析考試(2022-2025年,其中2023年得分標準化為150分)中按錯誤類型丟失的分數分佈。在理論考試中,概念性錯誤和幾何/空間可視化錯誤在所有模型中佔主導地位,共同佔去了60-70%的總失分。GPT-5和Gemini 2.5 Pro顯示出最低的整體錯誤率,而Claude模型的錯誤率較高。分佈顯示,基本的推理錯誤(概念性和幾何性)遠遠超過了計算錯誤,特別是Claude模型在概念理解上存在困難,除了Gemini 2.5 Pro和GPT-5之外的所有模型都顯示出明顯的幾何/空間弱點。在資料分析考試中,錯誤分佈相對平衡,繪圖「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出的錯誤類別。在所有模型中,概念性錯誤最為普遍,反映了實現深度物理理解的難點。與國際數學奧賽(IMO)等純數學競賽不同,物理和天體物理奧林匹克競賽要求將數學形式與物理直覺相結合,在評估科學推理能力方面別具價值。由於這些錯誤觸及理解的核心,它們通常出現在所有類型的問題中,並導致嚴重的扣分。第二大錯誤來源是幾何或空間推理。這些錯誤完全集中在第一類問題中,這進一步證實了空間推理是大語言模型的一個關鍵弱點。模型經常無法可視化三維配置,錯誤識別天體坐標之間的角度,或在球面幾何中錯誤地應用向量運算。這些失敗甚至發生在幾何問題被清晰地用文字描述的情況下。這在第一類問題中佔大多數,表明這些限制不僅在於多模態,還在於LLM在處理與空間推理相關任務時的基本能力。此外,天文學奧林匹克競賽非常重視近似和數量級推理,因為天文學涉及的尺度非常龐大。儘管模型通常能夠合理地處理近似問題,但特定的失敗案例突顯了物理直覺方面的差距。特別是,模型常常在數量級上錯誤判斷天文學距離,或者在問題約束下未能識別近似無效的情況。在解釋圖表和圖像方面的錯誤,儘管僅限於有視覺輸入的問題,但也具有相當的權重。這種模式與已知的LLM的多模態限制一致,比如記錄的圖表理解失敗,也符合莫拉維克悖論:對人類來說簡單的任務,如視覺解釋,對人工智慧來說仍然困難。最後,當模型在沒有展示中間步驟的情況下直接給出最終表示式時,會觀察到缺失或不完整的推導,這表明數學推理的透明度存在限制。其他類別,包括計算錯誤、符號精度和近似錯誤,導致的扣分較少,表明模型具有相當不錯的計算能力。資料分析考試中的失敗模式與理論考試不同,資料分析考試的錯誤分佈(見圖1b)在多個類別中相對較為均勻。正如預期的那樣,繪圖和圖表及圖像閱讀在資料分析考試中也會導致扣分。能力較弱的三個模型,OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,主要的錯誤類別是繪圖,而GPT-5和Gemini 2.5 Pro的主要扣分來源是圖像和圖表閱讀。計算錯誤也在資料分析考試中導致了相當一部分的扣分。對於Gemini 2.5 Pro,計算錯誤甚至與圖像和圖表閱讀一樣,是另一個主要的錯誤來源。這是因為許多資料分析問題涉及長表格,並且需要計算多個值以生成圖表。值得注意的是,理論考試中主要的扣分原因——概念性錯誤和幾何錯誤——在資料分析考試中並不突出。儘管概念性錯誤可能出現在任何問題中,並且仍然會導致大多數模型在資料分析考試中扣分,但對圖表閱讀和繪圖任務的強烈關注使得其他類型的錯誤更有可能發生。 (新智元)